Авторы |
Бождай Александр Сергеевич, доктор технических наук, профессор, кафедра систем автоматизированного проектирования, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40), bozhday@yandex.ru
Тимонин Алексей Юрьевич, аспирант, Пензенский государственный университет (Россия, г.Пенза, ул. Красная, 40), c013s017b301f018@mail.ru
|
Аннотация |
Актуальность и цели. Наибольший научный интерес для аналитиков представляют открытые социальные данные из сети Интернет как имеющие непосредственную связь со всеми видами человеческой деятельности. Однако в своем исходном виде эти данные плохо подходят для автоматизированной прикладной обработки и должны быть представлены в структурированном, удобном для человеческого восприятия виде – социальном профиле. Построение социального профиля осуществляется через анализ отфильтрованных исходных данных из открытых источников сети Интернет. Динамические неструктурированные данные, включающие в себя как текстовую, так и мультимедиа информацию, не могут быть обработаны классическими средствами аналитики. Поэтому необходимо определить новые методы и подходы анализа в зависимости от типа рассматриваемой информации для наиболее эффективного и полного использования исходных данных.
Материалы и методы. Задача анализа данных социального профиля человека достигается за счет использования математического аппарата теории множеств, программных комплексов Big Data и NoSQL хранилищ данных, средств аналитики социальных медиа, а также современных методов анализа мультимедиа.
Результаты. Предложено разделить исходные данные социального профиля на статическую и динамическую части. В статье рассмотрены методы анализа неструктурированной текстовой информации социального профиля. Описывается технология поиска неявных зависимостей в текстах с использованием средств визуального анализа и обработки естественного языка. Также предлагается обзор методик для анализа мультимедиа контента (графика, звук).
Выводы. Этап анализа текстовых и мультимедийных данных социального профиля является наиболее важным с точки зрения получаемых результатов и достаточно сложным в реализации. Существует возможность частично автоматизировать процесс анализа информации за счет использования средств визуального анализа, обработки естественного языка (NLP), нейронных сетей и специализированных алгоритмов. Полученные данные обеспечивают подробный детальный обзор связей и сущностей социального профиля и могут использоваться в дальнейших более глубоких социальных исследованиях.
|
Ключевые слова
|
анализ данных, неструктурированные данные, мультимедиа, открытые источники информации, социальный профиль человека, Big Data
|
Список литературы |
1. Бождай, А. С. Исследование процесса идентификации человека в сетях открытого доступа и построения его социального профиля на основе технологий Big Data / А. С. Бождай, А. Ю. Тимонин // Модели, системы, сети в экономике, технике, природе и обществе. – 2016. – № 2 (18). – С. 112–119.
2. Бождай, А. С. Исследование проблемы фильтрации исходных данных социального профиля / А. С. Бождай, А. Ю. Тимонин // Математическое и компьютерное моделирование естественно-научных и социальных проблем : материалы X Междунар. науч.-техн. конф. молодых специалистов, аспирантов и студентов / под ред. И. В. Бойкова (Пенза, 23–27 мая 2016 г.). – Пенза : Изд-во ПГУ, 2016. –С. 130–135.
3. Официальный сайт Neo4j: The World's Leading Graph Database. – 2017. – URL: https://neo4j.com (дата обращения: 02.02.2017).
4. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика : учеб. пособие / Е. И. Большакова, Э. С. Клышинский, Д. В. Ландэ, А. А. Носков, О. В. Пескова, Е. В. Ягунова. – М. : МИЭМ, 2011. – 272 с.
5. Анализ структурированных и неструктурированных данных с помощью Content Analytics // Центр компетенции по технологии IBM Big Data. – М., 2014. – 66 с.
6. Официальный сайт проекта Apache Hadoop. – 2017. – URL: http://hadoop. apache.org (дата обращения: 02.02.2017).
7. Выявление скрытых связей на основе анализа текстов с помощью i2 // Центр компетенции по технологии IBM Big Data. – М., 2014. – 47 с.
8. Яковлев, В. Е. Макромедиа: анализ мультимедиа информации. M-Lang / В. Е. Яковлев // Молодой ученый. – 2011. – Т. 1, № 4. – С. 105–108.
9. Бойков, И. В. Алгоритм построения статистического дискретно-континуального описания длительности звуков потока осмысленной речи диктора / И. В. Бойков, А. И. Иванов, Д. М. Калашников // Известия высших учебных заведений. Поволжский регион. Технические науки. – 2015. – № 4 (36). – С. 64–78.
|